#aprendizaje por hitos

Aprendizaje de políticas guiado por hitos para agentes de lenguaje de largo horizonte

Optimiza agentes de lenguaje con aprendizaje guiado por hitos para tareas de largo horizonte. Mejora planificación y ejecución en entornos complejos.